Inspired by the cognitive science theory of the explicit human memory systems, we have modeled an agent with short-term, episodic, and semantic memory systems, each of which is modeled with a knowledge graph. To evaluate this system and analyze the behavior of this agent, we designed and released our own reinforcement learning agent environment, "the Room", where an agent has to learn how to encode, store, and retrieve memories to maximize its return by answering questions. We show that our deep Q-learning based agent successfully learns whether a short-term memory should be forgotten, or rather be stored in the episodic or semantic memory systems. Our experiments indicate that an agent with human-like memory systems can outperform an agent without this memory structure in the environment.
translated by 谷歌翻译
我们提出了一种基于情节知识图(EKG)的新方法,用于评估开放域中的(多模式)对话剂。该图是通过解释对话过程中的原始信号而生成的,并且能够随着时间的推移捕获知识的积累。我们应用对所得图的结构和语义分析,并将这些属性转化为定性措施。我们将这些措施与通常用于对话代理的现有自动和手动评估指标进行比较。我们的结果表明,我们的基于知识的评估为互动和代理人的行为提供了更多的定性见解。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
建议是根据个人用户需求排列项目(例如电影或产品)的任务。目前系统依赖于协同滤波和基于内容的技术,这两者都需要结构化训练数据。我们提出了一个推荐的推荐框架,其中包括仅使用非结构化文本语料库作为培训数据的现成掠夺性语言模型(LM)。如果用户$ U $ laked \ textit {matrix}和\ texix {Inception},则构建一个文本提示,例如,\ Textit {“像Matrix,Inception,$ {<} M {>} $”}估计$ U $和M $之间的亲和力,使用LM可能性。我们将我们的想法与语料库分析进行了激励,评估了几个迅速结构,我们将基于LM的推荐与在不同数据制度上培训的标准矩阵分组进行比较。我们的实验的代码是公开的(https://colab.research.google.com/drive/1f1mlz-fgalgdo5rpzxf3vemkllbh2est?Usp=sharing)。
translated by 谷歌翻译